主页 - Brain Garden

论文信息论文标题: SSM Vision Encoders for Visual Language Models arXiv ID: 2603.19209 摘要视觉-语言模型（VLM）通常采用模块化设计：预训练的视觉编码器生成视觉token，轻量级连接器将其映射到大语言模型（LLM）的嵌入空间。当前大多数VLM仍依赖ViT家族的Transformer架构作为视觉骨干。本文系统地研究了状态空间模型（SSM）视觉编码器在VLM中的潜力。通过严格的控制变量实验（backbone swap），作者发现：在匹配的IN1K/224设置下，VMamba在定位任务上显著优于ViT、MaxViT等架构密集预测预训练目标（检测/分割）可以进一步提升SSM和Tran...

论文信息论文标题: MSA: Memory Sparse Attention for Efficient End-to-End Memory Model Scaling to 100M Tokens 作者: Yu Chen, Runkai Chen, Sheng Yi 等 (EverMind, Shanda Group, Peking University) GitHub: https://github.com/EverMind-AI/MSA 摘要长期记忆是人类智能的基石。使AI能够处理终身规模的信息，达到数亿token的处理能力，一直是该领域的长期追求。由于全注意力架构的约束，大语言模型（LLM）的有效上下文长度通常限制在1M token以内。本文提出M...

论文信息论文标题: DreamID-Omni: Unified Controllable Human-Centric Audio-Video Generation arXiv ID: 2602.12160 摘要本文提出DreamID-Omni，一个统一的人类中心可控音视频生成框架。该框架基于双流Diffusion Transformer (DiT) 架构，将基于参考的生成（R2AV）、视频编辑（RV2AV）和音频驱动动画（RA2V）三种任务统一到单一范式中。针对多人物场景中的身份-音色绑定和说话人混淆问题，DreamID-Omni提出了双层解耦策略：信号层级：通过同步旋转位置编码（Syn-RoPE）绑定身份与音色语义层级：通过结构化描述建立主体与...

论文概述缩放模型深度是大型语言模型（LLM）发展的关键驱动力。然而，随着模型层数加深，它们往往遭受信号退化问题：在浅层形成的信息特征被后续层的残差更新逐渐稀释，导致深层难以有效恢复这些信息。本文提出了混合深度注意力机制（Mixture-of-Depths Attention，MoDA），允许每个注意力头同时关注当前层的序列KV对以及前面各层的深度KV对，从而有效解决信息稀释问题。核心创新 1. 混合深度注意力（MoDA） MoDA 是一种统一的注意力机制，将标准的序列级注意力与深度级注意力融合到一个单一的softmax算子中。每个token可以同时关注：当前层的序列级Keys和Values 来自之前所有层的深度级Keys和Values 这种方法通过数据依赖的...

摘要随着长上下文智能体工作流成为大语言模型的关键应用场景，注意力效率对推理速度和部署成本变得至关重要。稀疏注意力（Sparse Attention）能够有效解决这一问题，其中 DeepSeek Sparse Attention（DSA）是一个具有代表性的生产级解决方案：其轻量级索引器（lightning indexer）为每个查询选择 top-k 个最相关的 token，将核心注意力复杂度从 O(L²) 降低到 O(Lk)。然而，索引器本身仍保持 O(L²) 复杂度，且必须在每一层独立运行，尽管相邻层产生的 top-k 选择高度相似。本文提出 IndexCache，通过跨层索引复用来解决这一效率瓶颈。该方法将层划分为少量保留索引器的 Full 层（F）和大多数复用邻近 Full...

概述 PyTorch Mega-Cache 是一个统一的编译缓存框架，通过多层缓存策略显著提升 PyTorch 编译性能。该系统能够缓存从自动微分到 Triton 内核调优等各个编译阶段的结果。核心架构三层缓存体系 AOTAutograd 缓存（最高层）缓存自动微分编译结果避免重复的前向/反向图构建 FX 图缓存（中间层）缓存优化后的计算图跳过图优化和代码生成阶段 Triton 自动调优缓存（底层）缓存最优内核配置参数避免重复的基准测试过程关键组件 1. 缓存管理器 (torch/compil...

PyTorch DDP梯度同步机制详解概述 PyTorch的DistributedDataParallel (DDP)通过高效的梯度同步机制实现分布式训练。该机制采用分桶(bucket)策略和异步通信来优化性能，确保所有worker的模型参数保持同步。核心架构 1. 分桶机制 (Bucket-based Gradient Aggregation) DDP将多个参数的梯度合并到同一个桶中进行集体通信，减少通信次数： // 桶结构定义 struct Bucket { at::Tensor gradients; // 桶的梯度张量 std::vector<at::Tensor> bucket_views_in; // 输入视...

A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce 摘要强化学习（RL）已成为在复杂推理任务上微调大型语言模型（LLMs）的主要方法。在近期的方法中，GRPO 因其在训练如 DeepSeek-R1 等模型上的实证成功而脱颖而出，但其有效性来源仍不明确。在这项工作中，本文从类似 Reinforce 的算法角度重新审视 GRPO，并分析其核心组件。作者发现一个简单的拒绝采样基线 RAFT，在仅使用正样本训练的情况下，其性能与 GRPO 和 PPO 相当甚至更优。本文的消融实验表明，GRPO 的主要优势来自于丢弃所有生成回答都错误的提示（prompt），而不是其奖励归一化机制。受此...

主页

SSM Vision Encoders for Visual Language Models

MSA: Memory Sparse Attention for Efficient End-to-End Memory Model Scaling to 100M Tokens

DreamID-Omni: Unified Controllable Audio-Video Generation Framework

Mixture of Depths Attention

IndexCache-Accelerating Sparse Attention via Cross-Layer Index Reuse

PyTorch Mega-Cache 实现深度解读

PyTorch DDP梯度同步机制详解

一种面向LLM推理的极简方法-从拒绝采样到Reinforce